Lab 11 - Projekt blok2_2025

Projekt Blok 2_2025

Eksploracyjna Analiza Danych: Skuteczność Szczepień przeciwko odrze


1. Cel projektu

Celem projektu jest eksploracyjna i statystyczna analiza danych historycznych dotyczących:

w celu:

  1. identyfikacji trendów czasowych i przestrzennych zachorowań,
  2. określenia czynników sprzyjających występowaniu ognisk epidemicznych,
  3. oceny związku między wyszczepialnością a odpornością populacyjną,
  4. budowy modelu predykcyjnego ryzyka wystąpienia ognisk odry.

Projekt realizowany jest w duchu eksploracyjnej analizy danych (EDA) z wykorzystaniem metod statystycznych i elementów modelowania.


2. Kontekst epidemiologiczny

Odra i współczynnik reprodukcji

Odra jest wysoce zakaźną chorobą wirusową. Mimo że w wielu krajach europejskich przez pewien czas uznawana była za wyeliminowaną, w ostatnim czasie obserwuje się jej nawroty, co stanowi istotne wyzwanie dla zdrowia publicznego. Współczynnik Reprodukcji (\(\text{R}_0\)): Określa on średnią liczbę wtórnych zakażeń, wywołanych przez jednego chorego w populacji w pełni podatnej na zakażenie (tj. przed wprowadzeniem szczepień lub innych interwencji). Odra ma jeden z najwyższych wskaźników \(\text{R}_0\), szacowany na około 12-18. Oznacza to, że jedna osoba chora może zarazić od 12 do 18 innych osób, jeśli żadna z nich nie ma odporności.

Odporność populacyjna

W teorii krytyczny odsetek zaszczepionych (PCV – Population Critical Value) wymagany do uzyskania odporności populacyjnej obliczany jest jako:

PCV formula

Dla odry oznacza to poziom wyszczepialności rzędu 93–95%.

Kontrowersje szczepienia przeciwko odrze

Szczepionka przeciwko odrze (najczęściej w postaci skojarzonej MMR: odra, świnka, różyczka) jest wysoce skuteczna. Podawana jest w populacji dzieci i, zgodnie z aktualną wiedzą naukową, zapewnia trwałą odporność na całe życie. Ze względu na ciężki przebieg odry, zwłaszcza u małych dzieci (ryzyko powikłań takich jak zapalenie płuc, zapalenie mózgu), w większości krajów szczepienie jest kluczowym elementem przeciwdziałania zakażeniom. Wokół szczepionki MMR wciąż utrzymują się kontrowersje, które w pewnych kręgach łączą ją z występowaniem autyzmu. Choć te teorie zostały wielokrotnie obalone przez badania naukowe, ich wpływ na decyzje dotyczące szczepień w niektórych społecznościach jest zauważalny i może prowadzić do obniżenia poziomu wyszczepialności oraz wzrostu ryzyka wystąpienia ognisk odry.


3. Źródła danych

3.1 Dane WHO

⚠️ Uwaga metodologiczna:
Wartości 0 lub brak danych (NaN) mogą oznaczać brak raportowania, a nie rzeczywisty brak zachorowań.


3.2 Dane Banku Światowego (World Bank)

Podstawowy wskaźnik:

import wbgapi as wb

indicators = {'SH.IMM.MEAS': 'Vaccination_Rate'}

wb_data = wb.data.DataFrame(list(indicators.keys()), time=range(1980, 2025), labels=True)
wb_df = wb_data.reset_index()
wb_df.rename(columns={'economy': 'Country', 'time': 'Time', **indicators}, inplace=True)

Przykładowe dodatkowe wskaźniki:

Warto rozważyć wykorzystanie innych wskaźników lub zbiorów danych. Dla danych wbapi lista dostępnych wskaźników może być wyświetlona za pomocą komendy:

wb.series.info().

⚠️ Uwaga:
Wskaźnik SH.IMM.MEAS odnosi się do poziomu wyszczepienia w grupie wiekowej (kohorcie) 12–24 miesięcy. Poziom wyszczepienia całej populacji jest efektem kumulatywnym, który należy rozważać w dłuższym horyzoncie czasowym.


4. Definicje operacyjne

Na potrzeby projektu należy jawnie zdefiniować:

Przyjęta definicja musi być:

⚠️ Uwaga: Definicja ogniska epidemicznego może mieć istotny wpływ na wyniki analizy i wnioski z niej płynące. Z uwagi na ograniczenia w dostępnych danych w których liczba zachorowań lub zapadalność określone są dla całej populacji danego kraju, należy pamiętać, że rzeczywiste ogniska mogą występować lokalnie i nie być w pełni odzwierciedlone w danych krajowych, jednak z dużym prawdopodobieństwem można przyjąć, że wzrost zachorowań w populacji krajowej może być wskaźnikiem występowania ognisk lokalnych. W przypadku wątpliwości należy to uwzględnić w interpretacji wyników. Należy pamiętać, że znając kraj oraz rok, w którym odnotowano wzrost zachorowań można również odwołać się do informacji prasowych i innych źródeł, które mogą pozwolić zidentyfikować i scharakteryzować ogniska lokalne/zasięg wzmożonej zachorowalności - wykorzystanie tych dodatkowych źródeł nie jest w niniejszym projekcie bezwzględnie wymagane, jednak może pozwolić na bardziej precyzyjną ocenę czynników oraz interpretację faktów.


5. Zadania projektowe

Część I – Analiza czasowa i przestrzenna

  1. Przeprowadź analizę trendów zachorowań na odrę:
    • w czasie,
      • możesz np. sprawdzić czy wraz z postępującą globalizacją zmieniają się wzorce przebiegu choroby
      • czy wzrost zachorowalności ma charakter cykliczny czy też jest bardziej losowy
    • pomiędzy krajami i regionami
      • możesz np. przeanalizować czy w danym okresie w danych regionach pojawia się więcej ognisk co może świadczyć o rozprzestrzenianiu się choroby czy też zjawiska te mają zasięg tylko lokalny.
      • czy istnieją grupy krajów o podobnych wzorcach zachorowalności (do tego celu możesz użyć np. klasteryzacji)
  2. Zidentyfikuj okresy wzmożonej zachorowalności.
  3. Spróbuj zdefiniować metryki, które pozwolą określić okresy o podwyższonej zachorowalności (np. progi zapadalności, wzrost r/r itp.) i na ich podstawie określ kraje o wysokim, niskim i zmiennym ryzyku zachorowań.
  4. Wybierz ok. 9 krajów do analizy pogłębionej:
    • kraje o wysokim,
    • niskim,
    • oraz zmiennym ryzyku zachorowań.
    • możesz też wybrać inny sposób wyboru krajów, ale musi być on uzasadniony.
  5. Przeanalizuj jakość danych (braki, zera, raportowanie).

Część II – Analiza czynników wpływających

  1. Zbadaj i postaraj się zinterpretować zależności pomiędzy:
    • zachorowalnością,
    • wyszczepialnością,
    • wskaźnikami społeczno-ekonomicznymi.
  2. Zastosuj odpowiednie metody statystyczne:
    • korelacje,
    • modele regresyjne (dobór modelu musi być uzasadniony)
  3. Spróbuj empirycznie określić zakres lub poziom wyszczepialności, przy którym obserwuje się istotne ograniczenie ryzyka powstawania ognisk epidemicznych
  4. Porównaj wynik z teoretycznym PCV.

Sugeruje się ograniczenie analizy wyłącznie krajów wybranych w Części I, ew. postawione hipotezy mogą zostać zweryfikowane na szerszym zbiorze danych. Prócz prezentacji wyników statystycznych należy zadbać o czytelną wizualizację zależności oraz ich interpretację.

⚠️ Uwaga metodologiczna: Analizowane czynniki nie muszą być bezpośrednio utożsamiane z pojedynczymi wskaźnikami pochodzącymi z danych Banku Światowego.

W szczególności w przypadku wyszczepialności należy uwzględnić możliwe opóźnienie czasowe pomiędzy podaniem szczepionki a uzyskaniem odporności populacyjnej. Z tego względu uzasadnione może być stosowanie m.in.: - uśrednionych wartości wyszczepialności w oknie czasowym, - opóźnionych (lagowanych) zmiennych, - innych pochodnych metryk lepiej aproksymujących poziom odporności populacji.

Wybór i konstrukcja takich zmiennych musi zostać jasno opisana i uzasadniona.

W części II oczekuje się, że przeanalizowany zostanie wpływ min. 4 różnych czynników (lub ich kombinacji) w tym obowiązkowe jest przeprowadzenie oceny wpływu poziomu wyszczepialności na zachorowalność. Poniżej przedstawiono listę przykładowych hipotez, które mogą być podstawą analizy czynnikowej (nie jest to lista wyczerpująca, nie ma również konieczności weryfikacji wszystkich tych hipotez) - można je modyfikować lub zastępować innymi, pamiętaj że część hipotez wymaga zdefiniowania dodatkowych zmiennych lub metryk:

  1. H1: Istnieje istotna statystycznie, ujemna zależność pomiędzy poziomem wyszczepialności przeciwko odrze a zachorowalnością na odrę w danym kraju.
  2. H2: Poziom wyszczepialności z opóźnieniem czasowym (np. 1–5 lat) lepiej wyjaśnia zmienność zachorowalności niż wartość bieżąca.
  3. H3: Zależność pomiędzy wyszczepialnością a ryzykiem ognisk ma charakter nieliniowy i wykazuje efekt progowy.
  4. H4: Kraje o średnim poziomie wyszczepialności poniżej empirycznie wyznaczonego progu charakteryzują się istotnie wyższym prawdopodobieństwem wystąpienia ognisk epidemicznych.
  5. H5: Zależność pomiędzy wyszczepialnością a zachorowalnością jest modyfikowana przez czynniki społeczno-ekonomiczne (np. PKB per capita, gęstość zaludnienia).
  6. H6: Przy porównywalnym poziomie wyszczepialności, kraje o wyższej gęstości zaludnienia wykazują większą intensywność ognisk zachorowań.
  7. H7: Większe wahania poziomu wyszczepialności w czasie są związane z wyższym ryzykiem występowania ognisk odry, niezależnie od średniego poziomu wyszczepienia.
  8. H8: Miary odporności populacyjnej oparte na skumulowanej lub uśrednionej wyszczepialności lepiej wyjaśniają ryzyko wystąpienia ognisk niż pojedyncze roczne wskaźniki.
  9. H9: Modele wykorzystujące wyłącznie pojedyncze wskaźniki (np. wyszczepialność) mają istotnie niższą skuteczność predykcyjną niż modele wielowymiarowe.
  10. H10: Empirycznie wyznaczony próg wyszczepialności ograniczający ryzyko ognisk mieści się w przedziale wynikającym z teoretycznych wartości dla odry.

Część III – Modelowanie ryzyka

  1. Zbuduj model predykcyjny ryzyka wystąpienia ogniska odry.
  2. Dane treningowe: do roku 2018.
  3. Predykcja: 2019–2024.
  4. Zmienna docelowa musi być jednoznacznie zdefiniowana np. jako:
    • zmienna binarna (0/1) określająca czy w danym okresie wystąpiło ognisko,
    • zmienna kategoryczna określająca poziom ryzyka (np. niski, średni, wysoki),
    • zmienna ciągła określająca prawdopodobieństwo przekroczenia pewnego progu zachorowań
    • zmienna ciągła określająca poziom zapadalności.
  5. Podziel dane na zbiór treningowy i testowy (uzasadnij strategię).
  6. Dopuszczalne jest wykorzystanie jako wejście predyktora również informacji wskaźnikach społeczno-ekonomicznych pochodzących z lat dla których wyznaczana jest predykcja, pod warunkiem zagwarantowania braku wycieku informacji o poziomie zachorowań.

Ocena modelu:


6. Wymagania formalne


7. Kryteria oceny

Element Udział
Część I – Analiza danych 25%
Część II – Analiza czynników 30%
Część III – Modelowanie 25%
Poprawność statystyczna 10%
Wnioski i struktura raportu 10%
Razem 100%

🔧 Dodatkowo: do 20% za jakość kodu.


8. Forma oddania